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FORMULARIO STATISTICA 


Funzione 


Definire una funzione y<-function(x)(3*x+7) 


Grafico 


plot(y) se voglio dire gli estremi p/ot(y, -10, 10) 


Cancellare lo script 


rm(list=/s()) 


Costruzione variabile nominale 


Costruzione vettore nominale sesso di bambini (esempio) 


sesso<-(“M?”, ME, “M”, “M”, “M”, sF”) 


Frequenza relativa 


La frequenza di un valore divisa per il numero totale di frequenze 


str(x) —> per vedere la stringa “x” ovvero tutti gli elementi 


Tabella delle frequenze, frequenze relative o proporzionali 


#tabella delle frequenze 
freq_peso<-table(peso) 


#tabella delle frequenze relative o proporzionali chiamata “rel peso 


rel _peso<- prop.table(freq_peso) 


Approssimare alla seconda decimale 


appr_peso<- round(rel_peso, digits=2) 


Frequenze percentuali 


#frequenze percentuali 


freq_percent<- round( rel _peso*100, digits=2) 
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Istogrammi 


hist(peso, col="green", main="freq assolute peso", xlab= "peso bambini", 
ylab= "frequenze assolute”) 


programma 


Altri grafici 
A) Diagrammi a torta 
tabella<-table(allergie) tabella sulla console 


pie(tabella) 


B) Diagramma a barre 


#diagramma a barre freq assolute peso 


barplot(tabella) i” E p i 


Calcolo della media 

Media campionaria = (x} + x3 + ...x,)/n 
peso_medio <- mean(peso) 

Media ponderata = (x; # fi + x2 * h + ...x,*f)In 


wa <- sum(x*f)/n 


Mediana 


median(peso) 
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Summery 


Il comando “summery()” fornisce: 
- gli estremi del campione; 
- la mediana e i quartili; 


- la media campionaria. 


Varianza 
Serve per determinare la dispersione dei dati rispetto alla media campionaria 
s = (x, — media) * fi(n — 1) 


var() 


Deviazione standard 


a) s2<-var() —> sqrt (s2) —> VVar®) 
b) sd() 


Coefficiente di variazione 


Serve per confrontare la deviazione standard e il valore assoluto della media 
campionaria 


coeff di variazione <- sd() / mean() 


Data frame 
Se voglio leggere o vedere solo una colonna della tabella (ad esempio) 
#leggere una variabile all'interno di un data set 


inquinante$Lago.3 —> str(inquinante$Lago.3) 


Percentile 


è una misura usata in statistica per indicare il minimo valore sotto al quale ricade 
una data percentuale degli altri elementi sotto osservazione. 


Es calcola il 10 percentuale 
perc10<-quantile (x, 0.10) (0.10 perchè è 10%) 


Tra i percentuali assumono particolare importanza i QUARTILI sono quei valori/ 
modalità che ripartiscono la popolazione in quattro parti di uguale. 
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Ordinare il campione 


sort() 


Boxplot 


È un metodo grafico per rappresentare la suddivisione in guartili dei dati. 


Si ottiene tracciando una linea che va dal più piccolo al più grande dei dati e due 
suddivisioni (box) che rappresentano i quartili. 


25% Eno 
Ogni box contiene il 25% dei dati: — am| s Á 


e» aop «95» 10325 125 


boxplot (x, horizontal = TRUE, col="red", main=“titolo") 


Scatterplot 


è un tipo di grafico in cui due variabili di un set di dati sono riportate su uno spazio 
cartesiano. 


plot ( x,y ) ; 


110 120 130 140 
pr de e 


- se c’è qualche correlazione —> curva; 


- se c’è correlazione lineare —> retta. 


Covarianza 
Per verificare se fra due variabili statistiche c’è qualche legame lineare. 
cov(x,y) = (x; — xmedia)(y; — ymedia)/(n — 1) 


cov (x,y) 


La covarianza può essere: 


TOSITIVA NEGATIVA | NULA 

x e Y vasuano nea | Xe Y VOKO Mm | VASSOI DI 
ATESA NREHONE | ! tendtuta 
al cecsuute di x este Y | el estwwee cul X | covlkY)=o 

o diminuite di x duminviste Y | Y tende a diminuire | 

£ Viceversa | | CORRELATONE 
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Coefficiente di correlazione di Pearson 


Serve per calcolare il grado di intensità della correlazione lineare di una coppia i 
campioni 


cor (x,y) —> “P 

Valutazione sull’intensità di correlazione 
A) valori positivi di r 
‘0<r<0,25 
0.25<r< 0.75 


0.75<r<1 


B) valori negativi di r 
-0.25<r<0 


-0.75 < r < -0.25 
-1 <r< -0.75 


Nel caso in cui vi sia una significativa correlazione lineare (FORTE) si può costruire 
una retta chiamata retta di regressione 


Retta di regressione 


N a 
m = pendenza > ß1 = =] q = intercetta > P0= J = fpi% 


Con R : Im(x~y ) 


Sovrapposizione tra retta di regressione e i dati reali del campione 


plot( x~y ) tal ar 


abline( retta di regressione ) p= 


umidità ambientale 
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Probabilità: 


Spazio campionario 
Simbolo: Q 


Significato: insieme di tutti i possibili esiti di un esperimento 


Evento 


Simbolo: E 


Significato: sottoinsieme dello spazio campionario E c Q 


Operazioni tra insiemi 

A) UNIONE A u B = { x € Q; x e A oppure x e B} 

B) INTERSEZIONE AnB={xeQ;xeAex eB} 

C) COMPLEMENTARE A° = {x € Q; x € A} 

Leggi di de Morgan: (AUB) =A AB? e (ANB)C=A°UB° 


Insieme delle parti 


Diciamo “insieme delle parti” una famiglia A di sottoinsiemi di Q che soddisfi i 
seguenti criteri: 


1. A non è vuoto —> A# Ø 
2. SeE e€ A, allora —> EE A 


3. Se E, E, € A allora —> E U E € A (A è chiuso rispetto alle operazioni di 


ninna Iintareazinna) 
unione, INTersezione) 


P( Q ) = famiglia di tutti i sottoinsiemi di Q / insieme delle parti di Q 


Definizione di probabilità 


Dati O spazio campionario e A sistema di eventi, diciamo probabilità su Q 
un'applicazione —> P : A > R; E > P (E) 


che soddisfa: 1. 0 < P (E) < 1 
2.P(O)=1 
3.Se A, BeA, AnB=@ allora P(AUB)=P(A)+P(B) 
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Regole del calcolo della probabilità 

A) Probabilità del complementare P(A°) = 1 - P(A) 

B) Evento impossibile P(Ø) = 0 

C) Partizione dell'evento certo P(B) = P(B N A)+P(BNA") 

D) Ordinamento A C C > P(A) < P(B) 

E) Unione di eventi non disgiunti P(A U B) = P(A) + P(B) — P(A NB) 


Eventi indipendenti 


A e B sono indipendenti se il verificarsi di A non influenza la probabilità che si 
verifichi B e viceversa 


P(A n B) = P(A)P(B) 


Spazi di probabilità uniformi 
Diciamo che (Q,P) è uno “spazio di probabilità uniforme” se 
1. Q è finito; 
2. v@e Q,P{@})= p indipendentemente dal valore di œ. (Ovvero se la 
probabilità è la stessa per ogni esito in Q) 
Usiamo la notazione -| A | = tutti gli elementi dell'insieme A 
-p=1/]9Q] 
Dunque v A e P(O) abbiamo che P(A) = ([Aj}'p=|A|]/|Q] 


Dunque in questo caso si può dire che Probabilità = casi favorevoli/casi possibili 


Variabili aleatorie 


Data una popolazione generica Q, diciamo variabile aleatoria su Q una variabile “X” 
che assume casualmente i suoi valori nella popolazione Q. 


Generalmente possiamo considerare l’evento X = k: 


Considerata una variabile aleatoria X, ha senso calcolare P (X=k) 
Variabile aleatoria discreta 
È una variabile aleatoria che assume valori discreti x=0,1,2,...n e y= x}, X2, X3... 


Sempre in generale diciamo che x, e range di X se P (x=x) + 0 
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Densità di probabilità o funzione di distribuzione o pdf (probability 
distribuition function) 


Funzione : fornisce la probabilità di ogni evento costruito a partire da X : 
F(X) = P(X=x) oppure p, = P(X=k) 

Regole : 

1. v k 0<p;<1 

2. P= P(X=k) = 0 se k ¢ range di X 


Valore atteso 


In generale il valore atteso di una variabile casuale discreta (che assuma cioè solo 
un numero finito o una infinità numerabile di valori) è dato dalla somma dei possibili 
valori di tale variabile, ciascuno moltiplicato per la probabilità di essere assunto 
(ossia di verificarsi), cioè è la media ponderata dei possibili risultati. 


Diciamo “valore atteso” di X (media, valor medio, speranza matematica, attesa) la 
quantità: 


Hu = E [X] = È} x” PX=x) 
Proprietà: 
1. E[cX] = cE[X] 
2. E[X + Y] = E[X] + E[Y] 


Varianza e deviazione standard di una v.a. 
Rappresentano la dispersione dei possibili valori di X rispetto al valore atteso. 
Data X, variabile aleatoria finita, diciamo “varianza di X” la quantità: 
o^2 =s? = Var(X) =} (x; - u)^2* P (X=x) 
Diciamo “deviazione standard di X”: 
o=s = Var(X) 
Proprietà: 


1. Var(aX)= a°Var(X) f 


N 


Var (a + X) = Var (X) (invarianza per traslazione); 
3. Se X,Y sono indipendenti allora E[XY]=E[X] E[Y] e Var(X+Y)=Var(X) Var(Y). 
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Processi di Bernoulli - Distribuzione Binomiale 


Prova Bernoulliana 


Diciamo prova bernoulliana un esperimento che può avere solo due risultati 


P(V) = p 


P(E)=1-p 


N.B: p per convenzione indica sempre la probabilità di successo 


Variabile aleatoria di Bernoulli 


Diciamo v.a. di Bernoulli la v.a. : 


X ~ B(p) 


Essa può assumere due valori: 


Valore atteso 


Indica quante volte in media abbiamo successo 


EX]=p 


Varianza 


Var(X) = p(1 — p) 


Processi di Bernoulli 

È una sequenza (anche illimitata) di prove bernoulliane. 

1. Prove indipendenti; 

2. Tutte con la stessa probabilità di successo p e (0,1). 

- Limitati : sequenza di numero fissato n di prove bernoulliane ; 


- Illimitati : sequenza di numero infinito di provare bernoulliane . 
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Processi di Bernoulli limitati : 


- X=: numero di successi ottenuti in n prove; 
- X può assumere i valori: 0,1,2,..n ; 


- X è detta variabile aleatoria binomiale di parametri n (numero di prove) e p 
(probabilità di successo in ogni prova) 


- Siindica X ~ B(n, p) 


Valore atteso e varianza di un processo bernoulliano limitato 


Valore atteso: E|[X]|= np; Varianza : Var(X) = np(1- p) 
FUNZIONI IN R: 
Fattoriale 


FUNZIONE: n!= factorial(n) 


Coefficiente binomiale 


Calcoliamo coefficienti binomiali 

FUNZIONE: 

A) Regola matematica: n binomiale k —> choose(n,k): k<=n 
B) Funzione precostituita: PP_7<- dbinom (7, size=n, prob=p) 
Per calcolare ad esempio P(x<=2) = P(x=0)+P(x=1)+P(x=2) 


usiamo la funzione p<-sum(dbinom((0:2), size=n, prob=p)) 


Setnames 


Questa è una funzione comoda che imposta i nomi su un oggetto e restituisce 
l'oggetto. È molto utile alla fine della definizione di una funzione in cui si sta creando 
l'oggetto da restituire e si preferisce non memorizzarlo con un nome solo per poter 
assegnare i nomi. 


In questo caso 
Tabuliamo pdf: 
tab.pdf<-setNames(pdf,k) 


pdf = distribuzione e k = vettore range della variabile 
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Realizzazione di una variabile 
Assumiamo di aver estratto concretamente un valore x dalla popolazione: 
x è detto realizzazione della variabile aleatoria X 


Es: scommettiamo sul lancio di due dati: scommettiamo sul 7 ma all’estrazione 
esce il numero 5 (realizzazione di X). Dato di fatto: abbiamo perso qualsiasi fossero 
le previsioni probabilistiche di X 


Variabile aleatoria discreta 


Assumono valori in un intervallo di numeri reali (es. [0,00], [0.4,10] ecc) 


Funzione densità PDF 


È una funzione 0<f(t)<1 tale che l’area sottesa al suo grafico sia pari a 1: 


A mge at AUG: 


Calcolo della probabilità 


Va,b € R,a < b la probabilità P(a < X < b) è data dall'area sottesa al grafico 


tra intervallo [a, b]: 
sedia Çyinat 
lo 
w 


dat 


Funzione di ripartizione CDF (cumulative distribuition function) 


F(t) = P(X < x) 
n 
@ F funzione non decrescente; 
© lim- ACIO; y (+) d F 
5É = 


© lim- FOE 
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Funzione di ripartizione e calcolo della probabilità 
A) Dato un intervallo [a,b] P(a < X < b) = F(b) — F(a) 


B) La funzione di ripartizione ci permette di calcolare P(a < X < b), dunque F(x) 
descrive completamente la distribuzione della v.a. X. 


C) Calcolare gli estremi o non calcolarli non fa differenza 


Valore attesa e varianza per una variabile continua 


+00 


i tf(t)dt 
Valore atteso: p= E[X]= = 


Intuitivamente può essere considerato come la media dei possibile valori di X pesati 
in modo continuo dalla densità f(t). 


Varianza:  oN2= Var(X) = E[(x-1)A2] = I Di — LD? f(t)dt 


Distribuzione normale standard 
Z ~ N (0,1) 

1 
E[]=0 e  Var(Z)=1 Pie 


In R : g(x) = dnorm(x, mean=0, sd=1) 


Calcolo della probabilità per distribuzione Normale Standard 


Utilizziamo R perchè non si può fare in altro modo. 


Distribuzione normale di media y e varianza 012 
X - N (u, 0/2) definita da X = oZ + pu 
X ~ N( yu 6^2) = Z ~ N(0,1) 


Curva della distribuzione normale: 


eg LI A 
' AR Vox To + 


i max Ñ ur va = J 


fa 
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Proprietà della distr. normale 


Date: 
- X v.a. normale di media „x e varianza ox2, X ~ N(ux,0ox^2) 
- Y v.a. normale di media „y e varianza oy^2, Y ~ N(uy,oy^2) 


- Xe Y indipendenti 
ALLORA: X +Y ~N ( ux+uy , ox^2+0y^2) 


Attenzione! Le varianze di sommano, le deviazioni standard no! 


Quantili della distr. normale standard 
Considerata la v.a.normale standard Z ~ N(0,1) e fissata una probabilità O < æ < 1 
Diciamo quantile di ordine a, il valore z, tale che:  P(Z<z,)=a 


In R : qnorm(alpha, mean=0, sd=1) = qnorm(a) 


: xi Nme] 
oÅ 


Ga 


Quantili in generale 


Data una v.a. X di densità f(t) e funzione F (t) = P(X<t), fissata una probabilità 0<p<1 
diciamo quantile di ordine p: 


il valore q, € R tale che P(X < q,) = p 


Le proprietà dei quantili z, della 
distribuzione normale standard sono 
basate sulla simmetria rispetto 
all'asse delle ordinate della funzione 
gaussiana. 


Dunque non sono valide in generale 
per i quantili q, una distribuzione 
qualsiasi 
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Tabella CODICI R per distribuzioni 


X ~ unif [a,b] dunif (x, min=a, punif ((x, min=a, qunif ((x, min=a, 
max=b) max=b) max=b) 
X ~ N (u, 0^2) dnorm (x, mean=y, pnorm (x, mean=y, qnorm (x, mean=y, 
sd=o) sd=0) sd=0) 
X-B(n,p) dbinom (x, size=n, pbinom (x, size=n, qbinom (x, size=n, 
prob=p) prob=p) prob=p) 


Per riassumere: 


d “nome” = (x, parametri) 


p “nome” = (x, parametri) 


Q “nome” = (x, parametri) 
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Statistica inferenziale 


Vogliamo ottenere informazioni sull’intera popolazione a partire dai dati ottenuti 
attraverso il campionamento. 


Procedimento 

1) Fissiamo un campione aleatorio 

2) Dallo studio teorico otteniamo informazioni sulla distribuzione di probabilità 
3) Realizzazione: 

- estraiamo campione di dati; 


- Con strumenti teorici (B) effettuiamo stime su u e o 


Campione aleatorio indipendente identicamente distribuito 


Chiamiamo campione aleatorio i.i.d. una famiglia di variabili aleatorie che 
soddisfino: 


1. Indipendenti 
Stessa distribuzione ( = pdf ) 


2 
3. Stessa varianza (= 0/2 ) 
4 


. Stesso valore atteso (= E[X] ) 


Valore atteso E[Xmedia] 
E [Xmedia] = u 


Non dipende da n (ampiezza) 


Varianza Var(Xmedia) 
oN2/n 


Dipende da n ( în; JVar) 


Se la popolazione è normale di media u e varianza oN2 


Xmedia -N(u,0%2/n) 
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Teorema del limite centrale 

Se: 

- campione i.i.d. 

- media n 

- varianza oN2 

- n>=30 

Allora: Assumiamo che la popolazione abbia distribuzione normale: 


Xmedia --N(u,0%2/n) 


Realizzazione di un campione aleatorio 


Un campione casuale semplice estratto concretamente dalla popolazione 


Su R comando r+nome variabile(...) 


rnorm (n, mean=mu, sd=sigma) 
runif (n, max=b, min=a) 


rbinom (n, size=N, prob=p) 


Intervallo di confidenza per media nota con varianza non nota 
a) Estraiamo un campione casuale di ampiezza n 
b) Fissiamo un livello di fiducia/confidenza CL=1 - @ 
cl<-0.99 
alpha<-1-cl 
alpha 
c) Calcoliamo la media campionaria 


xbar=mean(x) 


d) Intervallo di confidenza per la media, al livello di fiducia 1-a è [ xbar-E, xbar+E] 
zstar<-qnorm(1-alpha/2) 
E<-zstar * sigma/sqrt(n) 


IC<- xbar+c(-1,+1)*E 


Risposta: - l’intervallo di c. è [estremo sx, estremo dx] 


- il livello medio di rumorosità è u = xbar + E 
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Se la popolazione ha media e varianza entrambe NON note? 


o/2 non nota -> non utilizzabile per costruire intervallo di confidenza 
Introduciamo quindi: 
- Varianza campionaria $? = 1/(n — 1} 2x; — xbar)” 


- Deviazione standard campionaria S= JS È 


Esse sono chiamate “variabili aleatorie statistiche” -> servono per stimare y e o. 


Si verifica che xbar-y / (S / yn) = t_n-1 = distribuzione t di student con n-1 gradi di 
libertà 


Distribuzione t-di student X-t, 


Descritta da densità f(t) con grafico molto simile alla normale standard (campana 
simmetrico rispetto ad origine) ma è più precisa della normale 


E[X]=0 
Var(X)= n / n-2 -> sempre Var(X)>1 
In R: f(t)= dt(t, df=n) 


Quantili della t di student 
t* = qt(alpha, df=n) 
Intervallo di confidenza per media nota con varianza non nota 
a) consideriamo un campione casuale di ampiezza n 
b) Calcoliamo media e varianza campionarie xbar<-mean(x) s^2<- var(x) 
c) Intervallo di confidenza al livello di confidenza CL= 1-alpha 
[xbar-E , xbar+E] 
E<-t*S/sqrt(n) 
t* = qt (alpha, df=n) 


Intervallo di confidenza è dunque: 4 = xbar + E 


4 e [estremo sx; estremo dx] 
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Proporzione di successi in una popolazione bernoulliana 


- Consideriamo la popolazione bernoulliana (successo/insuccesso) con probabilità 
di successo p in ogni prova (p ignota) 


- Consideriamo un campione aleatorio i.i.d. 
- Variabile aleatoria che conta il numero di successi del campione: 
Ð = (numero di successi di campione di ampiezza n) / n 
SE n*p>=5 e n*(1-p)>=5 — ALLORA [(p-p)/ sart( p*(1-p)/n)]- N 
(Ha distribuzione normale standard) 
Intervalli di confidenza per proporzione di successi in pop. 
Bernoulliana 
- popolazione Bernoulliana 
- Fissiamo livello di confidenza CL = 1-alpha 
- Estraiamo campione casuale 
- Calcoliamo p 
- Verifichiamo che n*p>=5 e n*(1-p)>=5 
- Calcoliamo errore statistico E= z_(1-alpha/2) * [ p(1-p)/n] 
z_(1-alpha/2) = qnorm(1-alpha/2) 
Intervallo di confidenza è dunque: [ p-E ; p+E ] 
p = p+E 
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Come si stima la varianza di una popolazione? 

Stima della varianza 

- Consideriamo una popolazione con varianza NON nota 

SE consideriamo la varianza campionaria S° > ALLORA si verifica che E[S7]=042 


S? è un buon stimatore di 042 


Si verifica inoltre che la variabile aleatoria (n-1) * S 2/52 ha distribuzione “chi 
quadro con n-1 gradi di libertà” 


Distribuzione chi-quadro con n-1 gradi di libertà ( x ) 


In R: dchiq (x, df=n ) 


Quantili della chi-quadro 
Sinistro : Istar<- qchisq(alpha/2, df=n-1) 
Destro : rstar<-qchisg(1-alpha/2, df=n-1) 


Intervalli di confidenza per la varianza 
- Popolazione normale con varianza NON nota 
- Fissiamo il livello di confidenza CL = 1-alpha 
- Estraiamo campione casuale 

- Media e varianza campionarie xbar e S? 

- Calcoliamo i quantili Istar e rstar 


(n-1)? (n- pe 


Intervallo di confidenza è dunque: | alcu 
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Test di ipotesi 


Procedura per assumere con un certo livello di significatività statistica se 
l’affermazione Ho debba essere rifiutata o non rifiutata. 


A) Ipotesi nulla Ho 
Afferma che un parametro della popolazione è uguale ad un valore teorico fissato. 


B) Ipotesi alternativa H, 


È l'intervallo di valori che il parametro assume quando l'ipotesi nulla è FALSA. 


Come stabilire se rifiutare o no Hgo? 


Statistica di test z 


È wv V(O, 1) 
a I e 
Z= 
Po (1- PA 
a: TAL 
Ul UL MILL ° £ fe 
pe-p?) 
n 
P(Z>z) = p-value ( Z=normale standard; z=statistica di test) 
a € (0,1) = livello di significatività 
( In generale 0.01<a<0.1 > tra 1% e il 10%) 
Quindi: 
p-value<=a Rifiutiamo Ho 
p-value>a Non rifiutiamo Ho 
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Test di ipotesi sulla proporzione p di successi in una 
popolazione Bernoulliana 


Popolazione bernoulliana con p e (0,1) 


Fissiamo un valore di confronto pọ e un livello di significatività a 


Estraiamo un campione in modo che n*p) > 5 e n*(1-p) > 5 


- Calcoliamo la proporzione campionaria p = num di successi / n 


Calcoliamo statistica di test z = (P - po) / sart[ (po (1-p) / n] 


Ho: pP=po ; Ha: P>Po Ho: p=po ; Hay: P#Po Ho: P=Po ; Ha: P<Po 
p-value = P( Z>z) p-value = 2P( Z>|z|) p-value = P( Z<z) 


prop.test(x,n,p=p0,alternative=“greater”); 
prop.test(x,n,p=p0,alternative="“two.sided”); 


prop.test(x,n,p=p0,alternative="less”). 


Statistica di test per la costruzione di processi decisionali 


Test sulla popolazione z = (È -py)/sart[(po(1-p) / n] N (0,1) 
Ho: P=Po 
Test sulla media a) sigma nota a) sigma nota 
Ho: mu=mu0 z= (xbar-muo0) / (sigma/ N (0,1) 
sqri(n)) b) sigma non nota 
b) sigma non nota t_(n-1) 
T= (xbar-muo0) / (s/sqrt(n)) 
Test sulla deviazione standard chiquadro= [(n-1)*S7] / chiquadro^2 con n-1 gradi di 

Ho: sigma=sigma0 sigma0? libertà 


lunedì 9 novembre 2020 
Test di ipotesi per media e varianza 


Test per la media con varianza NOTA 
- Popolazione con media yu incognita e oN2 nota 
- Fissiamo Hp: mu=mu0 

- Fissiamo a (0,1) 

- Estraiamo campione con ampiezza n 


- Calcoliamo media campionaria xbar = mean(x) 


- Costruiamo z = (xbar-muo0) / (sigma/sqrt(n)) 


Ho: mu=mu0 ; Hy: mu>mu0 Ho: mu=mu0 ; H,: muzmuo Ho: mu=mu0 ; Hy: mu<mu0 


p-value = P( Z>z) p-value = 2P( Z>|z|) p-value = P( Z<z) 


p-value<-pnorm(z) ; p-value<-2*pnorm(z) ; p-value<-1-pnorm(z) . 
prop.test(x,n,p=p0,alternative=“greater”); 
prop.test(x,n,p=p0,alternative=“two.sided”); 
prop.test(x,n,p=p0,alternative="less”). 
Test per la media con varianza NON NOTA 
(primi 4 punti uguali a prima) 
- Calcoliamo media campionaria xbar e varianza campionaria 57 


- Costruiamo t = (xbar-muo0) / (s/sqrt(n)) 


Hg: mu=mu0 ; H4: mu>mu0 Hg: mu=mu0 ; H4: muzmuo Ho: mu=mu0 ; H,: mu<muo 


p-value = P(T>t) p-value = 2P( T>|t|) p-value = P(T<t) 


p-value<-pt(t, df=n-1); p-value<-2*pt( abs(t), df=n-1, lower.tail=FALSE ; 
p-value<-1-pt(t, df=n-1) . 
oppure 


t.test(x,mu=muo0, alternative="greater”); 
t.test(x,mu=muo0,alternative="“two.sided”); 
t.test(x,mu=muo0,alternative="less”) 


lunedì 9 novembre 2020 


Test per la varianza 

- Popolazione normale con 0/2 incognita 

- Fissiamo MH: sigma\2=sigma0/2 e fissiamo a (0,1) 
- Estraiamo campione con ampiezza n 

- Calcoliamo varianza campionaria s 


- Costruiamo chiquadro = [-1)*S7] / sigma0^2 


Hy: sigma>sigma0 Hy: sigmazsigma0 Hy: sigma<sigma0 
p-value = P(X>y/2 ) p-value = 2min[ P(X<x22); p-value = P(X<yA2) 
P(X>yN2) ] 


p-value<-pchisq(chi, df=n-1, lower.tail=FALSE) ; 


p-value<-2*min[pchisq(chi,df=n-1,lower.tail=TRUE), 
pchisq(chi,df=n-1,lower.tail=FALSE) 


p-value<-pchisq(chi,df=n-1,lower.tail=TRUE) 


[ Test non parametrici: test di wilcoxon per la mediana 
- Consideriamo Hg: mediana=m 
- Fissiamo a (0,1) 


- Estraiamo campione casuale 


H,: mediana>m H: medianazm H,: mediana<m 
wilcox.test(x, mu=m, wilcox.test(x, mu=m, wilcox.test(x,mu=m, 
alternative=“greater”) alternative="two.sided”) alternative="less”) 


Il test non accetta TIES, ovvero ripetizioni nel vettore di dati. 


Si aggiunge “exact=FALSE”, ovvero R non calcola il p-value preciso, ma lo stima in 
modo che possa funzionare lo stesso. ] 
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lunedì 9 novembre 2020 


Confronto tra parametri (media, dev.standard etc) tra due 
popolazioni diverse 


Test sul confronto tra due popolazioni bernoulliane 


- Abbiamo popolazione 1 con proporzione p, di successo e 


popolazione 2 con proporzione p, di successo 
- Ampiezza dei campioni nį e n, non per forza uguali 
- Estraiamo campioni X e Y 
- Calcoliamo phat1=p1=numero successi in X/n, e 
phat2=p2=numero successi in Y/n, 

- Costruiamo la statistica di test così: 

* p=proporzione totale di successi=( phat1*n, + phat2*n,)/n,+n, 

* Statistica di test= z= (b1-p2) / sgri[ p*(1-p)*(1/n,+1/n)] 

Si distribuisce come una normale standard N(0,1) 


Codifica R: 
* Vettore numero di successi vp= c (n1*phat1, n2*phat2) 
* Vettore ampiezze dei campioni vn= (n1, n2) 


* Effettuiamo il prop.test prop.test(vp, vn, alternative="“greater, two.sided, less”) 
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lunedì 9 novembre 2020 


Test di confronto tra medie, mediane e varianze 


Test di confronto tra medie di due popolazioni 
- Abbiamo popolazione X e popolazione Y 


- Ampiezza dei campioni n, e n,, non per forza uguali 


y’ 
- Estraiamo campioni X e Y 


- Consideriamo medie e varianze REALI mu,, mu,, sigma2,, sigma2, 
- Himu=mu, 
- Calcoliamo xbar, ybar (medie campionarie) 


- Calcoliamo $? e s? varianze campionarie 


Distinguiamo i test sulla base delle informazioni su sigma2, e sigma2, 


1) Varianze note 
Statistica di test: z = (xbar-ybar) / sqrt[ sigma2,/n, + sigma2y/n, ] 
Coda a dx: p-value<-pnorm(z,lower.tail=FALSE); 


Due code: p-value<-2*pnorm(abs(z), lower.tail=FALSE ); 


Coda a sx: p-value<-1-pnorm(z, lower.tail=TRUE). 

2) Varianze NON note ma uguali sigma2, = sigma2, 
Statistica di test: t = (xbar-ybar) / sqrt[ 1. /Inx+1/n, ] 

Coda a dx: t.test<-(x, y, alternative=“greater”, varequal=TRUE) 


Due code: t.test(x, y, alternative="two.sided”, varequal=TRUE) 


Coda a sx: t.test(x, y, alternative=“less”,varequal=TRUE) 
3) Varianze NON note e ignote sigma2, + sigma2, 
Statistica di test: t = (xbar-ybar) / sqrt[ Sî/n, + S/n, ] 


Coda a dx: t.test<-(x, y, alternative=“greater”, varequal=FALSE) 
Due code: t.test(x, y, alternative="two.sided”, varequal=FALSE) 


Coda a sx: t.test(x, y, alternative=“less”,varequal=FALSE) 
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lunedì 9 novembre 2020 
Test di confronto tra mediane di due popolazioni 
- Ho: medianaA = medianaB 
Utilizziamo il test di Wilcoxon: 
Coda a dx: wilcox.test<-(x, y, alternative=“greater”) 
Due code: wilcox.test(x, y, alternative="two.sided”) 


Coda a sx: wilcox.test(x, y, alternative="less”) 


Test di confronto tra varianze 
- Ho: sigma2,=sigma2g 
- Calcoliamo varianze campionarie Sî e S$ 


Statistica di test: f = S/S distribuzione di Fisher 


[ Distribuzione di Fisher 

Codifica R: 

e Quantili: qf (æ, n, m) 

e P(F<f) = pf( «, n, m, lower.tail=TRUE) 

» P(F>f) = pf(a, n, m, lower.tail=FALSE) ] 

Coda a dx: var.test<-(x, y, alternative="“greater”) 


Due code: var.test(x, y, alternative="two.sided”) 


Coda a sx: var.test(x, y, alternative="less”) 
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lunedì 9 novembre 2020 


Test di indipendenza 

Serve per verificare se due variabili sono indipendenti o dipendono l’una dall’altra. 
- Ho: variabili sono indipendenti 

- Hy: variabili non indipendenti 

Codifica R: 

e Calcolare la matrice x=(25,13; 12,15) x<-rbind( c(25,13), c(12,15) ) 

e  Eseguiamo il test chiquadro chisq.test(x) 

Attenzione: se le frequenze in una casella sono meno di 5 appare un Warning 


allora chisq.test(x,simulate.p.value=TRUE) 


Test di adattamento ad un modello 


Serve per verificare se un modello probabilistico ipotizzato per la popolazione sia o 
meno compatibile con i dati campionari che abbiamo. 


Test chi-quadro di adattamento 

- n categorie A1, A2 etc 

- Vettore delle proporzioni teoriche di elementi per categoria è 
pt = p1,p2, ...pk (p1+p2+...pk=1) 

- Estraiamo campione casuale 

- Frequenze per categoria z=z1,22,...Zk 


Eseguiamo il test: chisg.test(z,p=pt) 


Test chi-quadro per le distribuzioni continue non 

note 

Consideriamo popolazione con distribuzione X non nota 

Serve per verificare se la popolazione si adatta ad un modello di distribuzione Xo 
Ho: X=X e H4: X#Xo 

Si usa il Test di Kolmogorov-Smirnov: ks.test(x, “pchisqg”/“pnorm”/“punif”, 


df=n) 
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lunedì 9 novembre 2020 
Confronto tra le distribuzioni di due popolazioni 


- Abbiamo popolazione X e popolazione Y 


Serve per stabilire se le distribuzione delle due popolazioni sono uguali oppure 
diverse. 


Ho: X=Y e Hy: X#Y 
- Estraiamo i campioni x e y 
Eseguiamo il test: ks.test(x,y) 


Verifica della normalità di una popolazione 


- Abbiamo popolazione X 


Serve per stabilire se la distribuzione di probabilità della popolazione X è normale 
Ho: X ha distribuzione normale; Hy: X non ha distribuzione normale 
- Estraiamo un campione casuale x 


Eseguiamo il Test di Shapiro-Wilk: shapiro.test(x) 
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lunedì 9 novembre 2020 


Test ANOVA (Analysis of variance) 


È un test di ipotesi sulle medie che utilizza la varianza delle distribuzioni per arrivare 


al 


calcolo del p-value. 
Consideriamo n popolazioni indipendenti: X}, X>, ... X, 
Assumiamo che in tutte le popolazioni: 
* Distribuzione normale 
* Varianze tutte uguali (tutte la stessa varianza) 
Ho: mut=mu2=...muk ; H,: almeno una # dalle altre 


Estraiamo i campioni: x}; X2, X, 
Costruiamo una lista con tutti i campioni: /<-list(maggio<-may, ...) 
Costruiamo il dataframe: d<-stack(l) 


Guardiamo struttura del dataframe: str(d) 


Eseguiamo il test: oneway.test (values-ind, data=d, varequal=TRUE) 


Se NON possiamo assumere la normalità della distribuzione? 


Test di Kruskall-Wallis 
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Consideriamo n popolazioni indipendenti, tutte con la stessa distribuzione (non 
necessariamente nota 


Hg: mu1=mu2=...muk ; H4: almeno una # dalle altre 
Eseguiamo le altre operazioni descritte precedentemente 


Eseguiamo il test: kruskal.test (values-ind, data=d) 


